Analizar la performance de la técnica de espectrometría de masa MALDI-TOF-MS (Matrix Assisted Laser Desorption Ionization – Time of Flight – Mass Spectrometry) como una metodología de diagnóstico molecular alternativa para COVID-19. El análisis de los espectros se realizó con el software libre R en una estrategia de machine learning y con la integración de esta estrategia en una plataforma web de libre acceso. Este desarrollo podría complementar con precio y complejidad bajos, la demanda de determinaciones diagnósticas en esta situación de crisis sanitaria mundial.
Nasopharyngeal swabs (1µl)
Metal plate (Electrode)
1µl of Alfa-cyano-4-hydroxycinnamic acid matrix (HCCA) (Sigma). (0.2 dollars /spot ~ 20 dollars/Electrode)
30 minutes UV.
Microflex LT mass spectrometer (Brüker)
Raw mass spectrum (flexControl 3.4.135.0. Brüker)
Mass spectra files (.mzML)
En este trabajo se procesaron 295 hisopados nasofaríngeos procedentes del Lab. Inmunoclínica del Hospital de Clínicas (195) y del INBIRS-CONICET (100). A su vez, se procesaron 6 muestras en el Lab. Clínico Banco de Sangre Universidad de Costa Rica y los espectros fueron remitidos para su análisis en doble ciego.
Los objetivos del diseño experimental fueron por un lado estudiar la estabilidad del diagnóstico realizado con los algoritmos de ML en distintos conjuntos de datos de validación, y por otro, generar un sistema de agregado de muestras a los distintos modelos. En azul se indican los conjuntos de datos disponibles para entrenar los algoritmos y en verde se muestran los conjuntos de datos de validación. Para los conjuntos de datos del 21/5 y 25/6, al tener poca cantidad de muestras se utilizaron como entrenamiento o validación, siendo las elecciones mutuamente excluyentes.
Se ensayaron 15 combinaciones distintas de los conjuntos de datos de entrenamiento (azul), y los datos se procesaron de forma continua y dicotomizados. Cada uno de estos 30 conjuntos de datos, se dividieron aleatoriamente 10 veces en set de datos training y test, obteniéndose 10 valores de performance (Accuracy, Sensitivity, Specificity, NPV, PPV) para cada cambinación. A su vez, se probaron 4 algoritmos distintos de clasificación (Naive Bayes, Support Vector Machines, Random Forest y Neural Networks). El resultado fueron 1200 modelos de clasificación ensayados (15x2x10x4), y corresponde a la evaluación interna de los modelos.
En lo que respecta a la evaluación externa, se utilizaron 5 sets de datos de validación (verde). El resultado fueron 600 modelos de clasificación (15x2x4x5).
Se seleccionó la combinación de datos de entrenamiento (azul), algoritmo y tipo de dato que mejor performance obtuvo en la validación externa. Se buscó la combinación que mejores valores de sensibilidad arrojará, y que estos valores fueran estables entre los distintos conjuntos de datos. El modelo seleccionado se evaluó en doble ciego.
| Procedencia.muestras | Tipo.ensayo | Composición | Exactitud | Especificidad | Sensibilidad | NPV | PPV |
|---|---|---|---|---|---|---|---|
| INBIRS-CONICET | Doble ciego | 16 Cov.Pos / 34 Cov.Neg | 48 | 29.4 | 87.5 | 83.3 | 36.8 |
| INCIENSA.Costa Rica | Doble ciego | 3 Cov.Pos / 3 Cov.Neg | 66.6 | 33.3 | 100 | 100 | 60 |
1. Los perfiles proteomicos de hisopados nasofaríngeos RT-PCR positivos y negativos para Sars-Cov2-19 son diferenciables mediante la estrategia MALDI-TOF-MS_Machine learning.
2. En función de los valores de performance obtenidos esta estrategia podría convertirse en una metodología de screening poblacional.
1. Procesar 100 muestras en doble ciego de INBIRS-CONICET.
2. Analizar 100 espectros en ciego de INCIENSA-UCR (Costa Rica). Evaluar el potencial de la metodología cómo screening poblacional. Analizar la dependencia respecto de la sintomatología.